智能论文笔记

HuSpaCy: an industrial-strength Hungarian natural language processing toolkit

György Orosz , Zsolt Szántó , Péter Berkecz , Gergő Szabó , Richárd Farkas

分类：自然语言处理 | (统计)机器学习

2022-01-06

虽然有几种可用于匈牙利语的源语言处理管道，但它们都不满足当今NLP应用程序的要求。语言处理管道应由接近最先进的lemmatization，形态学分析，实体识别和单词嵌入。工业文本处理应用程序必须满足非功能性的软件质量要求，更重要的是，支持多种语言的框架越来越受青睐。本文介绍了哈普西，匈牙利匈牙利语言处理管道。呈现的工具为最重要的基本语言分析任务提供组件。它是开源，可在许可证下提供。我们的系统建立在Spacy的NLP组件之上，这意味着它快速，具有丰富的NLP应用程序和扩展生态系统，具有广泛的文档和众所周知的API。除了底层模型的概述外，我们还对共同的基准数据集呈现严格的评估。我们的实验证实，母鹿在所有子组织中具有高精度，同时保持资源有效的预测能力。

translated by 谷歌翻译

System Design for an Integrated Lifelong Reinforcement Learning Agent for Real-Time Strategy Games

Indranil Sur , Zachary Daniels , Abrar Rahman , Kamil Faber , Gianmarco J. Gallardo , Tyler L. Hayes , Cameron E. Taylor , Mustafa Burak Gurbuz , James Smith , Sahana Joshi

分类：机器学习 | 人工智能

2022-12-08

As Artificial and Robotic Systems are increasingly deployed and relied upon for real-world applications, it is important that they exhibit the ability to continually learn and adapt in dynamically-changing environments, becoming Lifelong Learning Machines. Continual/lifelong learning (LL) involves minimizing catastrophic forgetting of old tasks while maximizing a model's capability to learn new tasks. This paper addresses the challenging lifelong reinforcement learning (L2RL) setting. Pushing the state-of-the-art forward in L2RL and making L2RL useful for practical applications requires more than developing individual L2RL algorithms; it requires making progress at the systems-level, especially research into the non-trivial problem of how to integrate multiple L2RL algorithms into a common framework. In this paper, we introduce the Lifelong Reinforcement Learning Components Framework (L2RLCF), which standardizes L2RL systems and assimilates different continual learning components (each addressing different aspects of the lifelong learning problem) into a unified system. As an instantiation of L2RLCF, we develop a standard API allowing easy integration of novel lifelong learning components. We describe a case study that demonstrates how multiple independently-developed LL components can be integrated into a single realized system. We also introduce an evaluation environment in order to measure the effect of combining various system components. Our evaluation environment employs different LL scenarios (sequences of tasks) consisting of Starcraft-2 minigames and allows for the fair, comprehensive, and quantitative comparison of different combinations of components within a challenging common evaluation environment.

translated by 谷歌翻译

FedFOR: Stateless Heterogeneous Federated Learning with First-Order Regularization

Junjiao Tian , James Seale Smith , Zsolt Kira

分类：机器学习 | 人工智能 | 计算机视觉

2022-09-21

联邦学习（FL）试图在本地客户端分发模型培训，而无需在集中式数据中心收集数据，从而消除了数据私人关系问题。 FL的一个主要挑战是数据异质性（每个客户的数据分布可能会有所不同），因为它可能导致本地客户的权重差异并减慢全球融合。当前专为数据异质性设计的SOTA FL方法通常会施加正则化以限制非IID数据的影响，并且是状态算法，即它们随着时间的推移维持局部统计数据。尽管有效，但这些方法只能用于FL的特殊情况，仅涉及少数可靠的客户。对于fl的更典型应用，客户端数量很大（例如，边缘设备和移动应用程序），这些方法无法应用，激发了对任何可用于任何数量客户端使用的无状态方法的无状态方法的需求。我们得出了一阶梯度正则化，以惩罚由于本地数据异质性而导致的本地更新不一致。具体而言，为了减轻权重差异，我们将全局数据分布的一阶近似引入本地目标，该目标凭直觉地惩罚了与全局更新相反方向的更新。最终结果是一种无状态的FL算法，可实现1）在非IID数据分布下，比SOTA方法明显更快地收敛（即较少的通信回合）和2）总体融合性能更高。重要的是，我们的方法不会对客户大小施加不切实际的限制，从而可以从大多数FL应用程序中向大量客户学习。

translated by 谷歌翻译

On the Surprising Effectiveness of Transformers in Low-Labeled Video Recognition

Farrukh Rahman , Ömer Mubarek , Zsolt Kira

分类：计算机视觉 | 机器学习

2022-09-15

最近，视力变压器已被证明在多个视力任务中广泛使用基于卷积的方法（CNN）具有竞争力。与CNN相比，变压器的限制性偏差较小。但是，在图像分类设置中，这种灵活性在样本效率方面取决于变压器需要成像尺度训练。这个概念已转移到视频中，其中尚未在低标记或半监视设置中探索用于视频分类的变压器。我们的工作从经验上探讨了视频分类的低数据制度，发现与CNN相比，变形金刚在低标记的视频设置中表现出色。我们专门评估了两个对比的视频数据集（Kinetics-400和Somethingsomething-v2）的视频视觉变压器，并进行彻底的分析和消融研究，以使用视频变压器体系结构的主要特征来解释这一观察结果。我们甚至表明，仅使用标记的数据，变形金刚显着优于复杂的半监督CNN方法，这些方法也利用了大规模未标记的数据。我们的实验告知我们的建议，即半监督的学习视频工作应该考虑将来使用视频变压器。

translated by 谷歌翻译

Open-Set Semi-Supervised Object Detection

Yen-Cheng Liu , Chih-Yao Ma , Xiaoliang Dai , Junjiao Tian , Peter Vajda , Zijian He , Zsolt Kira

分类：计算机视觉 | 机器学习

2022-08-29

半监督对象检测（SSOD）的最新发展显示了利用未标记数据改善对象检测器的希望。但是，到目前为止，这些方法已经假设未标记的数据不包含分布（OOD）类，这对于较大规模的未标记数据集是不现实的。在本文中，我们考虑了一个更实用但具有挑战性的问题，开放式半监督对象检测（OSSOD）。我们首先发现现有的SSOD方法在开放式条件下获得了较低的性能增长，这是由语义扩展引起的，在该语义扩展中，分散注意力的OOD对象被错误预测为半监督训练的分布伪标签。为了解决此问题，我们考虑与SSOD方法集成的在线和离线OOD检测模块。通过广泛的研究，我们发现，基于自我监视的视觉变压器的脱机OOD检测器对在线OOD探测器的表现良好，因为它稳健地对伪标记的干扰。在实验中，我们提出的框架有效地解决了语义扩展问题，并在许多OSSOD基准（包括大规模的可可开放图）上显示出一致的改进。我们还在不同的OSSOD条件下验证框架的有效性，包括不同数量的分布类别，不同程度的监督和不同标记集的组合。

translated by 谷歌翻译

HTML版本

ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and Pose Optimization

Muhammad Zubair Irshad , Sergey Zakharov , Rares Ambrus , Thomas Kollar , Zsolt Kira , Adrien Gaidon

分类：计算机视觉 | 机器学习 | 机器人

2022-07-27

我们的方法从单个RGB-D观察中研究了以对象为中心的3D理解的复杂任务。由于这是一个不适的问题，因此现有的方法在3D形状和6D姿势和尺寸估计中都遭受了遮挡的复杂多对象方案的尺寸估计。我们提出了Shapo，这是一种联合多对象检测的方法，3D纹理重建，6D对象姿势和尺寸估计。 Shapo的关键是一条单杆管道，可回归形状，外观和构成潜在的代码以及每个对象实例的口罩，然后以稀疏到密集的方式进一步完善。首先学到了一种新颖的剖面形状和前景数据库，以将对象嵌入各自的形状和外观空间中。我们还提出了一个基于OCTREE的新颖的可区分优化步骤，使我们能够以分析的方式进一步改善对象形状，姿势和外观。我们新颖的联合隐式纹理对象表示使我们能够准确地识别和重建新颖的看不见的对象，而无需访问其3D网格。通过广泛的实验，我们表明我们的方法在模拟的室内场景上进行了训练，可以准确地回归现实世界中新颖物体的形状，外观和姿势，并以最小的微调。我们的方法显着超过了NOCS数据集上的所有基准，对于6D姿势估计，MAP的绝对改进为8％。项目页面：https：//zubair-irshad.github.io/projects/shapo.html

translated by 谷歌翻译

Unbiased Teacher v2: Semi-supervised Object Detection for Anchor-free and Anchor-based Detectors

Yen-Cheng Liu , Chih-Yao Ma , Zsolt Kira

分类：计算机视觉 | 机器学习

2022-06-19

随着半监督对象检测（SS-OD）技术的最新开发，可以使用有限的标记数据和丰富的未标记数据来改进对象检测器。但是，仍然有两个挑战未解决：（1）在无锚点检测器上没有先前的SS-OD作品，并且（2）当伪标记的边界框回归时，先前的工作是无效的。在本文中，我们提出了无偏见的教师V2，其中显示了SS-OD方法对无锚定检测器的概括，并引入了无监督回归损失的侦听机制。具体而言，我们首先提出了一项研究，研究了现有的SS-OD方法在无锚固探测器上的有效性，并发现在半监督的设置下它们的性能改善要较低。我们还观察到，在无锚点检测器中使用的中心度和基于本地化的标签的盒子选择不能在半监视的设置下正常工作。另一方面，我们的聆听机制明确地阻止了在边界框回归训练中误导伪标记。我们特别开发了一种基于教师和学生的相对不确定性的新型伪标记的选择机制。这个想法有助于半监督环境中回归分支的有利改善。我们的方法适用于无锚固方法和基于锚的方法，它始终如一地对VOC，可可标准和可可添加的最新方法表现出色。

translated by 谷歌翻译

Lifelong Wandering: A realistic few-shot online continual learning setting

Mayank Lunayach , James Smith , Zsolt Kira

分类：计算机视觉 | 机器学习

2022-06-16

在线少数学习描述了一个设置，在学习新兴课程时，在数据流中对模型进行了培训和评估。尽管从单个室内环境组成的数据流中学习时，在此环境中的先前工作在实例分类中取得了非常有希望的性能，但我们建议扩展此设置，以考虑在一系列室内环境中考虑对象分类，这可能会发生这种情况在机器人技术等应用中。重要的是，我们称之为在线持续学习的环境将灾难性遗忘的灾难性遗忘的问题注入了少量的在线学习范式。在这项工作中，我们在我们的环境中基准了几种现有的方法和改编的基线，并显示灾难性遗忘和在线绩效之间存在权衡。我们的发现激发了这种环境中未来工作的需求，这可以在不灾难性遗忘的情况下实现更好的在线表现。

translated by 谷歌翻译

ATDN vSLAM: An all-through Deep Learning-Based Solution for Visual Simultaneous Localization and Mapping

Mátyás Szántó , György R. Bogár , László Vajta

分类：计算机视觉

2022-06-13

在本文中，引入了一种新颖的解决方案，用于由深度学习组件构建的视觉同时定位和映射（VSLAM）。所提出的体系结构是一个高度模块化的框架，在该框架中，每个组件在基于视觉的深度学习解决方案的领域中提供了最新的最新技术。该论文表明，通过这些单个构建基块的协同整合，可以创建一个功能高效，有效的全直神经（ATDN）VSLAM系统。引入了嵌入距离损耗函数并使用ATDN体系结构进行了训练。最终的系统在Kitti数据集的子集上设法实现了4.4％的翻译和0.0176 ver/m的旋转误差。所提出的体系结构可用于有效，低延迟的自主驾驶（AD）协助数据库创建以及自动驾驶汽车（AV）控制的基础。

translated by 谷歌翻译

Beyond a Pre-Trained Object Detector: Cross-Modal Textual and Visual Context for Image Captioning

Chia-Wen Kuo , Zsolt Kira

分类：计算机视觉 | 人工智能 | 机器学习

2022-05-09

在视觉字幕上取得了重大进展，在很大程度上取决于预训练的特征和后来的固定对象探测器，这些特征是自动回归模型的丰富输入。但是，此类方法的关键限制是模型的输出仅在对象检测器的输出上。这样的输出可以代表所有必要信息的假设是不现实的，尤其是当检测器跨数据集传输时。在这项工作中，我们推理了该假设引起的图形模型，并建议添加辅助输入来表示缺失的信息，例如对象关系。我们专门提议从视觉基因组数据集中挖掘属性和关系，并在其上调节字幕模型。至关重要的是，我们建议（并表明）使用多模式预训练模型（剪辑）来检索这种上下文描述。此外，对象探测器模型被冷冻，并且没有足够的丰富度来使字幕模型正确地接地。结果，我们建议在图像上调节检测器和描述输出，并在定性和定量上显示这可以改善接地。我们在图像字幕上验证我们的方法，对每个组件进行彻底分析以及预训练的多模式模型的重要性，并证明了对当前状态的显着改善，特别是苹果酒的 +7.5％，在BLEU中 +1.3％。 -4指标。

translated by 谷歌翻译